智能论文笔记

Metric Entropy Limits on Recurrent Neural Network Learning of Linear Dynamical Systems

Clemens Hutter , Recep Gül , Helmut Bölcskei

分类：机器学习

2021-05-06

神经网络理论中最有影响力的结果之一是通用近似定理[1,2,3]，其指出，连续函数可以通过单隐藏的层前馈神经网络近似地近似于任意精度。本文的目的是在这种精神上建立一个结果，用于近似通用离散时间线性动力系统 - 包括时变系统 - 通过经常性的神经网络（RNN）。对于线性时间不变（LTI）系统的子类，我们设计了该陈述的定量版本。具体而言，根据[4]，通过公制熵测量所考虑的LTI系统的复杂性，我们表明RNN可以最佳地学习 - 或识别系统理论Parlance - 稳定的LTI系统。对于通过差分方程表征其输入输出关系的LTI系统，这意味着RNN可以以度量熵最佳方式从输入输出迹线中学习差分方程。

translated by 谷歌翻译

Critical Evaluation of LOCO dataset with Machine Learning

Recep Savas , Johannes Hinckeldeyn

分类：计算机视觉 | 人工智能

2022-09-27

目的：对象检测正在通过自动化系统中的机器学习技术迅速发展。准备好的数据对于训练算法是必要的。因此，本文的目的是描述上下文（Loco）数据集中所谓的物流对象的重新评估，该数据集是内部径流学领域中的第一个用于对象检测的数据集。方法论：我们使用三个步骤的实验研究方法来评估机车数据集。首先，分析了GITHUB上的图像以更好地了解数据集。其次，Google Drive Cloud用于培训目的，以重新访问算法实现和培训。最后，如果可以与原始出版物相比，可以检查机车数据集，如果可以实现相同的培训结果。研究结果：在我们的研究中实现的平均平均精度是对象检测中的常见基准，比最初的研究作者的初步研究显着增加，获得了41％的幅度。但是，在叉车和托盘卡车的物体类型中特别看到改进潜力。独创性：本文介绍了Loco数据集的首次关键复制研究，以用于内凝学中的对象检测。它表明，基于机车的更好参数的培训甚至比原始出版物中提出的更高的精度。但是，还有进一步改善机车数据集的空间。

translated by 谷歌翻译

TEACH: Temporal Action Composition for 3D Humans

Nikos Athanasiou , Mathis Petrovich , Michael J. Black , Gül Varol

分类：计算机视觉

2022-09-09

给定一系列自然语言描述，我们的任务是生成与文本相对应的3D人类动作，并遵循指令的时间顺序。特别是，我们的目标是实现一系列动作的综合，我们将其称为时间动作组成。文本条件运动合成中的艺术现状仅采用单个动作或单个句子作为输入。这部分是由于缺乏包含动作序列的合适训练数据，但这也是由于其非自动进取模型公式的计算复杂性，该计算的规模不能很好地扩展到长序列。在这项工作中，我们解决了这两个问题。首先，我们利用了最近的Babel运动文本集合，该收藏品具有广泛的标记作用，其中许多作用以它们之间的过渡为顺序。接下来，我们设计了一种基于变压器的方法，该方法在动作中进行非自动打击，但在动作序列中进行自动加工。与多个基线相比，这种层次配方在我们的实验中被证明有效。我们的方法被称为“为人类动作的时间动作组成”教授，为各种各样的动作和语言描述中的时间构成产生了现实的人类动作。为了鼓励从事这项新任务的工作，我们将代码用于研究目的，以$ \ href {toch.is.tue.mpg.de} {\ textrm {我们的网站}} $。

translated by 谷歌翻译

Automatic dense annotation of large-vocabulary sign language videos

Liliane Momeni , Hannah Bull , K R Prajwal , Samuel Albanie , Gül Varol , Andrew Zisserman

分类：计算机视觉

2022-08-04

最近，手语研究人员已转向手语解释的电视广播，包括（i）连续签名的视频和（ii）与音频内容相对应的字幕，作为易于使用和大规模的培训数据来源。此类数据可用性的一个关键挑战是缺乏标志注释。利用这种弱对准数据的先前工作仅发现字幕中的关键字与单个符号之间的稀疏对应关系。在这项工作中，我们提出了一个简单，可扩展的框架，以极大地增加自动注释的密度。我们的贡献如下：（1）我们通过使用同义词和字幕签名对齐来显着改善先前的注释方法；（2）我们将标志识别模型中的伪标签的价值作为标志发现的方式；（3）我们提出了一种新的方法，以增加基于内域示例的已知和未知类别的注释；（4）在Bobsl BSL手语语料库上，我们将自信自动注释的数量从670K增加到5M。我们将这些注释公开用于支持手语研究社区。

translated by 谷歌翻译

Probabilistic Models for Manufacturing Lead Times

Recep Yusuf Bekci , Yacine Mahdid , Jinling Xing , Nikita Letov , Ying Zhang , Zahid Pasha

分类：机器学习

2022-04-28

在这项研究中，我们利用高斯工艺，概率神经网络，自然梯度增强和分位数回归增强梯度的增强，以模拟激光制造过程的交付时间。我们在域中介绍概率建模，并根据不同能力比较模型。在现实生活数据中的模型之间进行比较，我们的工作具有许多用例和实质性业务价值。我们的结果表明，所有模型都超过了使用域经验的公司估计基准，并具有良好的经验频率校准。

translated by 谷歌翻译

TEMOS: Generating diverse human motions from textual descriptions

Mathis Petrovich , Michael J. Black , Gül Varol

分类：计算机视觉 | 自然语言处理

2022-04-25

我们解决了从文本描述中产生不同3D人类动作的问题。这项具有挑战性的任务需要两种方式的联合建模：从文本中理解和提取有用的人类以人为中心的信息，然后产生人类姿势的合理和现实序列。与大多数以前的工作相反，该作品着重于从文本描述中产生单一的，确定性的动作，我们设计了一种可以产生多种人类动作的变异方法。我们提出了Temos，这是一种具有人体运动数据的变异自动编码器（VAE）训练的文本生成模型，并结合了与VAE潜在空间兼容的文本编码器结合使用的文本编码器。我们显示Temos框架可以像先前的工作一样产生基于骨架的动画，以及更具表现力的SMPL身体运动。我们在套件运动语言基准上评估了我们的方法，尽管相对简单，但对艺术的状态表现出显着改善。代码和模型可在我们的网页上找到。

translated by 谷歌翻译

Sign Language Video Retrieval with Free-Form Textual Queries

Amanda Duarte , Samuel Albanie , Xavier Giró-i-Nieto , Gül Varol

分类：计算机视觉 | 人工智能 | 自然语言处理

2022-01-07

可以突出显示可以有效地搜索一牌语视频集合的系统作为手语技术的有用应用。然而，在单个关键字超越各个关键字超出视频的问题已经受到文学中的有限关注。为了解决这个差距，在这项工作中，我们介绍了使用自由形式文本查询的手语检索的任务：给定书面查询（例如，句子）和大量的手语视频，目标是找到签名视频在最符合书面查询的集合中。我们建议通过在最近推出的大型How2sign数据集（ASL）上学习跨模型嵌入式来解决这项任务。我们确定系统性能的关键瓶颈是标志视频嵌入的质量，其缺乏标记的训练数据的稀缺。因此，我们提出了迭代对齐的框架，用于交错迭代轮符号斑点和特征对齐，以扩展可用培训数据的范围和规模。我们验证了通过改进签名识别和建议的视频检索任务的嵌入强大的标志视频嵌入的稳健标志视频的有效性。

translated by 谷歌翻译

MetaQA: Combining Expert Agents for Multi-Skill Question Answering

Haritz Puerto , Gözde Gül Şahin , Iryna Gurevych

分类：自然语言处理 | 机器学习

2021-12-03

最近的问题答案（QA）数据集和模型的爆炸在多个数据集上的训练模型或通过组合多个模型来增加多个域和格式的模型泛化的兴趣。我们认为，尽管有多个数据集模型的有希望的结果，但一些域或QA格式可能需要特定的架构，因此这些模型的适应性可能受到限制。此外，组合模型的当前方法忽略了质疑，例如问答兼容性。在这项工作中，我们建议将专家代理与专业代理商合并具有小说，灵活和培训的架构，这些架构考虑问题，答案预测和答案 - 预测置信度分数，以选择答案候选人列表中的最佳答案。通过定量和定性实验，我们表明我们的模型I）在域内和域外方案中的先前多个代理和多个数据集方法，II）培训是极其资料的代理商之间的协作。和III）可以适应任何QA格式。

translated by 谷歌翻译

On the rate of convergence of a classifier based on a Transformer encoder

Iryna Gurevych , Michael Kohler , Gözde Gül Sahin

分类：机器学习

2021-11-29

考虑了基于高维预测器的模式识别。定义了基于变压器编码器的分类器。分析了分类器朝向最佳错误分类概率的分类器的错误分类概率的收敛速率。结果表明，该分类器能够规避维度的诅咒，只要血管升性概率满足合适的分层组成模型。此外，通过考虑自然语言处理中的分类问题，理论上地在本文中地分析的变压器分类器之间的变压器分类器之间的差异，通过考虑自然语言处理中的分类问题来说明。

translated by 谷歌翻译

Evaluation of automated airway morphological quantification for assessing fibrosing lung disease

Ashkan Pakzad , Wing Keung Cheung , Kin Quan , Nesrin Mogulkoc , Coline H. M. Van Moorsel , Brian J. Bartholmai , Hendrik W. Van Es , Alper Ezircan , Frouke Van Beek , Marcel Veltkamp

分类：计算机视觉

2021-11-19

异常气道扩张，称为牵引支气管扩张，是特发性肺纤维化（IPF）的典型特征。体积计算断层扫描（CT）成像捕获IPF中逐渐变细的丢失。我们假设气道异常的自动化量化可以提供IPF疾病程度和严重程度的估算。我们提出了一种自动化计算管道，系统地将气道树木从基于深度学习的气道分割中划分到其裂片和世代分支，从而从胸部CT获得气道结构措施。重要的是，透气阻止通过厚波传播的杂散气道分支的发生，并通过图表搜索去除气道树中的环，克服现有气道骨架算法的限制。在14名健康参与者和14名IPF患者之间比较了透气段（跨空间）和透气曲线曲线之间的逐渐变化。 IPF患者中，Airway interberering显着降低，与健康对照相比，Airway曲线曲调显着增加。差异在下叶中最大标记，符合IPF相关损伤的典型分布。透气是一种开源管道，避免了现有的气道定量算法的限制，并具有临床解释性。自动化气道测量可能具有作为IPF严重程度和疾病程度的新型成像生物标志物。

translated by 谷歌翻译